检索结果

Select

1. 障碍空间中基于并行蚁群算法的 k近邻查询

郭良敏, 朱莹, 孙丽萍

计算机应用 2019, 39 (3): 790-795. DOI: 10.11772/j.issn.1001-9081.2018081647

摘要（410）

PDF （932KB）（257）

为解决障碍空间中的 k近邻查询问题，提出一种基于改进的并行蚁群算法的 k近邻查询方法（PAQ）。首先，利用不同信息素种类的蚁群实现并行查询 k近邻；其次，增加时间因素作为路径长短的判断条件，以最直接地呈现蚂蚁的搜索时间；然后，重新定义初始信息素浓度，以避免蚂蚁的盲目搜索；最后，引入可视点将障碍路径分割为多段欧氏路径，选择可视点进行概率转移，并改进启发函数，以促使蚂蚁朝着更为正确的方向搜索，避免算法过早陷入局部最优。与WithGrids相比，当数据点个数小于300时，对于线段障碍，算法运行时间平均缩短约91.5%；对于多边形障碍平均缩短约78.5%。实验结果表明，该方法在数据规模较小时的运行时间具有明显的优势，且可以处理多边形障碍。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于共享近邻相似度的密度峰聚类算法

鲍舒婷, 孙丽萍, 郑孝遥, 郭良敏

计算机应用 2018, 38 (6): 1601-1607. DOI: 10.11772/j.issn.1001-9081.2017122898

摘要（825）

PDF （1016KB）（429）

密度峰聚类是一种基于密度的高效聚类方法，但存在对全局参数 d _c敏感和需要人工干预决策图进行聚类中心选择的缺陷。针对上述问题，提出了一种基于共享近邻相似度的密度峰聚类算法。首先，该算法结合欧氏距离和共享近邻相似度进行样本局部密度的定义，避免了原始密度峰聚类算法中参数 d _c的设置；其次，优化聚类中心的选择过程，能够自适应地进行聚类中心的选择；最后，将样本分配至距其最近并拥有较高密度的样本所在的簇中。实验结果表明，在UCI数据集和模拟数据集上，该算法与原始的密度峰聚类算法相比，准确率、标准化互信息（NMI）和F-Measure指标分别平均提高约22.3%、35.7%和16.6%。该算法能有效地提高聚类的准确性和聚类结果的质量。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于差分隐私保护的谱聚类算法

郑孝遥, 陈冬梅, 刘雨晴, 尤浩, 汪祥舜, 孙丽萍

计算机应用 2018, 38 (10): 2918-2922. DOI: 10.11772/j.issn.1001-9081.2018040888

摘要（722）

PDF （753KB）（400）

针对传统的聚类算法存在隐私泄露的风险，提出一种基于差分隐私保护的谱聚类算法。该算法基于差分隐私模型，利用累计分布函数生成满足拉普拉斯分布的随机噪声，将该噪声添加到经过谱聚类算法计算的样本相似度的函数中，干扰样本个体之间的权重值，实现样本个体间的信息隐藏以达到隐私保护的目的。通过UCI数据集上的仿真实验，表明该算法能够在一定的信息损失度范围内实现有效的数据聚类，也可以对聚类数据进行保护。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于构成模式和条件随机场的企业简称预测

孙丽萍, 过弋, 唐文武, 徐永斌

计算机应用 2016, 36 (2): 449-454. DOI: 10.11772/j.issn.1001-9081.2016.02.0449

摘要（795）

PDF （990KB）（1004）

针对目前企业营销的不断深入,企业简称被各大新闻广泛使用,而作为新词又难以被有效识别的问题,提出一种基于构成模式和条件随机场(CRF)的企业简称预测方法。首先,从语言学的角度对企业全称和简称的构成规律进行了总结,并采用词库以及规则相结合的方式对Bi-gram算法进行改进,提出CBi-gram算法,实现了对企业全称的结构化切分,并提高了企业全称中核心词识别的准确性。然后,依据上述切分结果对企业类型进行再次细分,并通过人工总结和规则自学习的方法形成不同企业类型下的简称规则集。最后再基于规则生成企业的候选简称集,降低了不适用的规则对于不同类型的企业在生成简称过程中产生的噪声。另外,为了弥补单纯基于规则在解决全称缩写和简写缩写混合的局限性,引入CRF,从统计的角度对简称进行预测,并选取词、音调以及词在全称组成成分中的位置作为模型特征,进行模型训练,以实现两种方法的相互补充。实验结果显示,该方法具有较高的准确率,输出的企业简称集基本覆盖了企业的常用简称范围。

参考文献 | 相关文章 | 多维度评价